Ładowanie zbioru danych

Rozkłady zmiennych

Wnioski:

  1. Rozkład temperatury powietrza jest zbliżony do rozkładu normalnego
  2. Rozkłady współczynnika FFMC, ISI oraz siły wiatru są w przybliżeniu rozkładami symetrycznymi
  3. Zlogarytmowane rozkłady zmiennych rain oraz area będą wyglądały czytelniej

Zamiana skali na logarytmiczną

Przedstawienie liczby pożarów w danych miesiącach

~69% pożarów ma miejsce w sierpniu oraz wrześniu, 10% w marcu, natomiast pozostałe pożary przypadają na resztę miesięcy.

Sprawdzenie zależności dwuwymiarowych

Badanie wpływu poszczególnych czynników na wielkość pożaru

Połowa obserwowanych pożarów miała miejsce w temperaturach ok. 15-23 stopni, wilgotności ok. 32%-54% oraz przy braku opadów atmosferycznych.

Wpływ poszczególnych wskaźniów na wielkość pożaru

Eksploracja danych z użyciem Pandas profiling

Ograniczenia narzędzia Pandas profiling:

  1. Trudno zaobserwować wartości odstające
  2. Wraz ze wzrostem wielkości danych zwiększa się czas generowania raportu, zatem dla generowania raportu z dużych danych konieczne może być wzięcie jedynie próbki danych
  3. Inne typy wykresów również mogą dostarczyć cennych informacji, np. boxplot.